Warsztaty Badawcze 2021L - Praca Domowa nr 1

Autor: Bartosz Sawicki

Ten notatnik powstał w oparciu o https://www.kaggle.com/alpertml/credit-card-customers-eda-ml-97-5-accuracy/notebook#Exploring-the-Data

Kodowanie zmiennych kategorycznych i binarnych

Modelowanie

Sprawdźmy jak radzi sobie gdy usuniemy skorelowane chechy i dobierzemy inne hiperparametry.

Podział zbioru na treningowy i testowy + trenowanie modelu

Wyjaśnianie

Szukanie obserwacji o różnych najważniejszych zmiennych

index 5 6
1. najważniejsza zmienna Total_Trans_Amt Total_Amt_Chng_Q4_Q1
2. najważniejsza zmienna Months_Inactive_12_mon Contacts_Count_12_mon
predykcja i etykieta klient pozostał klient odszedł

Te obserwacje nie tylko różnią się najważniejszymi zmiennymi, ale też predykcją i etykietą. Może to ma wpływ na wybór najważniejszych cech przez metodę Break Down. Spróbujmy wyjaśnić kilka obserwacji, które mają etykietę 0.

Wśród próbki z obserwacji z etykietą 0 różne cechy występują jako najważniejsze. Kolejność cech nie zależy więc od etykiety i predykcji.

Obserwacje, które dla tych samych zmiennych mają inne efekty

Dla 55 i 122 obserwacji cecha Contacts_Count_12_mon jest równa 3, jednak w pierwszym przypadku zwiększa predykcję o 0.003, a w drugim zmniejsza o 0.006.

Wnioski ogólne

Cechy takie jak rodzaj karty czy stan cywilny wpływają nieznacznie lub zupełnie nie wpływają na predykcję modelu. Możnaby spróbować usunąć je i sprawdzić jaką skuteczność osiąga model.